---
id: unit8
title: 第八章 数据管理技术的发展
---



## 数据库技术发展概述
支持关系数据模型的关系数据库系统是第二代数据库系统。

第二代关系数据库系统具有模型简单清晰、理论基础好、数据独立性强、数据库语言非过程化和标准化等特点。

面向对象数据库系统（OODBS）是第三代数据库系统的代表。

第三代数据库系统应具有以下基本特征：  
（1）第三代数据库系统应支持数据管理、对象管理和知识管理。  
（2）第三代数据库系统必须保持或继承第二代数据库系统的技术。  
（3）第三代数据库系统必须对其他系统开放。  

## 数据仓库与数据挖掘
数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合，用以支持管理决策的过程。
0
*..
数据仓库主要有以下特征：  
（1）面向主题。  
（2）集成性。  
（3）数据的非易失性。  
（4）数据的时变性。  

粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别，细化程度越高，粒度级就越小，相反地，细化程度越低，粒度级就越大。

分割是将数据分散到各自的物理单元中，以便能分别处理，以提高数据处理的效率。

数据分割后的单元称为切片。

维是人们观察数据的特定角度，是考虑问题时的一类属性。

数据集市结构的数据仓库又称为主题结构数据仓库，是按照主题进行构思所形成的数据仓库。

简述数据挖掘的概念。
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现并提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的一种技术。
数据挖掘的功能有：  
（1）概念描述。  
（2）关联分析。  
（3）分类与预测。  
（4）聚类。  
（5）孤立点检测。  
（6）趋势和演变分析。  
第
在数据挖掘技术中，基于关联规则的挖掘是应用较广的一种方法。

分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。

常见的分类模型及算法有决策树模型、神经网络模型、线性回归模型等。

聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。

孤立点是指数据中与整体表现行为不一致的数据集合。

在实际使用中，数据挖掘的过程通常由以下六个步骤构成：  
（1）确定业务对象。  
（2）数据的选择。  
（3）数据的预处理。  
（4）建模。  
（5）模型评估。  
（6）模型部署。  

## 大数据管理技术
一般意义上，大数据是指无法在可容忍的时间内用现有信息技术和软、硬件工具对其进行感知、获取、管理、处理的服务的数据集合。

大数据具有以下特征：  
（1）数据量巨大，即大量化。  
（2）数据种类繁多，即多样化。  
（3）处理速度快，即快速化。  
（4）价值密度低。  

分布式文件系统用于统一管理服务器节点上存储的数据，典型案例是Hadoop开源架构下的分布式文件系统（HDFS）。

NoSQL是以互联网大数据应用为背景发展起来的分布式数据管理系统。NoSQL有两种解释：非关系数据库和数据管理技术不仅仅是SQL。

NoSQL系统支持的数据存储模型通常有键值（Key-Value）模型、文档（Document）模型、列（Column）模型和图（Graph）模型等。